仅需训练一小时,四足机器人稳定通过任意地形!高效、简洁的运动控制框架来了
前 言
相信《流浪地球2》中的又怂又萌的机械狗“笨笨”给大家留下了深刻的印象,片中的机械狗能在凹凸不平的月面上自如行走,帮助人类完成各种任务。近年来人工智能在机器人领域的蓬勃发展让片中的愿景逐渐成为可能。过去的方法已经让机械狗展现出了不俗的运动能力,但这些方法大多依赖丰富的传感器或者复杂的训练流程。
机械狗 “笨笨”
这篇文章将基于我们最近的工作 Hybrid Internal Model: Learning Agile Legged Locomotion with Simulated Robot Response,向大家介绍一种高效、简洁的足式机器人运动控制框架,并揭示该框架与控制理论中经典的内模原理之间的联系。
论文:
https://arxiv.org/abs/2312.11460
项目:
https://junfeng-long.github.io/HIMLoco/
代码:
https://github.com/OpenRobotLab/HIMLoco
背景介绍
[足式机器人]
足式机器人的应用场景非常广泛,从工业自动化到救灾任务,再到日常生活辅助,它们的潜力几乎无限。在工业领域,足式机器人可以进行地形勘测、设备检查和危险物质处理,特别是在对人类工作者来说过于危险或不可达的环境中。在救灾和搜救任务中,它们能够穿越瓦砾堆或其他复杂地形,快速定位受困者。此外,随着技术的不断进步,足式机器人在家庭服务、辅助医疗和个人休闲娱乐等领域的应用也越来越受到关注。足式机器人以其多样化的设计和应用领域,正在逐渐成为我们生活和工作中不可或缺的一部分。随着技术的不断进步,它们的能力和智能将不断提升,为我们打开更多以往难以想象的可能性。
然而目前足式机器人的运动控制仍存在着的一些问题,这限制了足式机器人在更复杂的环境中发挥作用。近期的一些工作将强化学习用于足式机器人的运动控制,取得了一些不错的成果,提高了足式机器人对复杂地形的适应能力。我们的工作结合了传统控制与强化学习,在现有工作的基础上进一步提高了足式机器人的运动能力,同时提高了训练效率,也为之后的工作提供了一种新的解决思路。
[足式机器人的控制]
足式机器人的控制技术是实现其复杂动作和适应性的关键。目前,主要有两种控制方法:传统控制和基于机器学习的控制。
传统控制方法通常依赖于预设的规则和算法来指导机器人的行为。这些规则基于对机器人动力学和环境的深入理解,能够确保机器人在已知和预定的情境中表现出高度的准确性和稳定性。其优点是在控制已知任务和简单环境方面非常可靠且反应速度快,适合需要即时反应的场景。但传统控制的灵活性有限,难以适应未知或变化的环境;开发复杂度很大,需要深入了解机器人的物理特性和环境。
基于机器学习,尤其是深度强化学习的控制方法,近年来在足式机器人控制领域变得越来越流行。这种方法通过让机器人从经验中学习来不断改进其行为,能够适应各种未知和复杂的环境,处理未见过的情况和复杂的环境,还能随着数据的积累,不断改进控制策略。但是这种方法通常计算要求高,需要大量的数据和计算资源来训练模型;具有不可预测性,在某些情况下可能产生意料之外的行为。
总的来说,传统控制在稳定性和实时性方面表现优秀,而基于机器学习的控制则在适应性和灵活性方面更胜一筹。理想情况下,结合两者的优点,开发出一种混合控制策略,可能是足式机器人未来发展的最佳途径。
目前基于强化学习的足式机器人运动控制算法为了实现sim2real都采用了一种两阶段的训练方法,这些方法首先会在可以完全获取所有环境信息的条件下训练一个参考策略,然后利用模仿学习的方法训练一个用于部署的策略,这个用于部署的策略所能获取的信息与真实机器人一致。
然而,这种两阶段的方法带来了两个弊端,其一是在训练过程中,通常会对状态添加噪音,同时对环境参数进行随机化,这就使得用于部署的策略无法从历史状态中准确地估计环境信息;其二是模仿学习会带来不可逆的信息损失,这使得用于部署的策略的性能相比于参考策略有很大的损失。
我们的方法避免了策略直接获取环境信息和模拟学习的过程,因此可以直接进行部署,没有性能的损失。我们还引入了对比学习来克服状态加噪和环境随机化带来的影响,同时提高了样本效率。
经典内模控制结合强化学习
[状态空间、动作空间与奖励函数]
由于大多数机器人都没有深度相机、激光雷达等环境传感器,我们将机器人的状态观测空间控制在一个合理的范围,即只在状态空间里包含了机器人的关节信息和IMU能够获取的信息,这也使得我们的算法能够广泛应用于各种现有的四足机器人硬件上。机器人的动作空间则是期望的关节位置与默认位置的偏差,这使得所有的动作都在默认位置附近,提高了控制过程的稳定性。我们采用了足式机器人运动控制中常用的奖励函数,具体请参考我们的文章。
[运动控制的建模]
机器人的鲁棒控制通常需要充足的环境信息来估计环境对机器人的影响,在传统控制算法中,有一类方法不需要观测外部环境,而是通过建立被控对象的内部模型,模拟它对控制命令的响应,进而估计外部环境的扰动,提高控制系统的闭环稳定性来实现鲁棒的控制,这类方法被称为内部模型方法。
在四足机器人的运动控制中,我们希望机器人能够很好地跟踪人类给出的期望速度,但同时有一个潜在的命令,即希望机器人在运动过程中保持稳定的状态。基于这一观察,我们首次把人类对足式机器人的运动控制命令拆解为速度命令与潜在的稳定性命令,通过构建一个能够模拟机器人对这两个命令的响应的内部模型,我们将能够提高足式机器人运动控制的闭环稳定性,进而实现更加鲁棒的控制,我们的混合内部模型的命名也来自于此。
如图1所示,混合内部模型接收机器人的状态与动作并模拟出机器人的响应,这个响应包含了机器人的速度与一个用来表征稳定性的隐变量,利用这些模拟的响应,策略网络可以估计外部环境对机器人的影响,实现更稳定的控制。
图1:经典内模控制与四足机器人的内模控制
[基于混合内部模型的训练框架]
显式的速度响应很容易进行估计,然而我们没有机器人稳定性的显式表征,因此如何估计机器人对于稳定性命令的响应成为了整个框架中的关键问题。
考虑到机器人对于保持稳定这一命令的响应是自然的嵌入在它下一个状态中的,因此我们直接使用下一个状态来监督混合内部模型的训练。我们将历史状态与下一状态看作稳定性的两个视角,通过使用基于原型的对比学习来训练混合内部模型,建立了对稳定性响应的估计器。这种方法对噪音更为鲁棒,克服了之前直接估计环境参数的方法对于噪音较敏感的缺陷。利用基于原型的对比学习,基于其聚类机制,我们可以利用不同样本间批次间的信息,从而提高了样本效率。
如图2所示,从缓存中取出轨迹后,我们按时序关系将轨迹拆分为多个正样本对,每个样本对由一段连续的历史序列与该序列的下一状态组成。该过程得到的样本对能够将根据是否匹配作为标签,构建对比学习任务。
通过对比学习,我们拉近正样本对在隐空间中的距离,推远负样本对在隐空间中的距离,从而以一种自监督的方式完成对序列输入的表征学习。然而,对比学习算法通常都是针对图像的表征学习,需要维护庞大的动量池、大批量的样本或者是采用多种数据增强手段扩充数据量,而这些技术无一例外都带来了高昂的显存开销与计算开销,不利于机器人的训练。
为此,我们采用了一种更加低成本的对比学习方案,通过引入多个聚类中心,以在线聚类的方式将每次批量训练中样本的大致信息储存在聚类中心里,在最大限度地保持对比学习算法带来的优势下,极大地降低了额外的显存开销与计算开销,这也使得我们所有任务的训练都能够在单卡上完成。在每一轮迭代训练中,我们先优化混合内部模型,再基于优化后的混合内部模型利用进端梯度优化算法来更新策略网络和价值网络。
图2:我们的训练框架
实 验
[实验结果]
我们在真实世界和模拟器中对比了我们的方法与最近的其他方法,如表1所示,结果表明我们的方法在几乎所有的真实世界任务中都取得了最好的成绩,除此之外,我们的方法在处理高难度任务时表现非常好,例如长距离的楼梯,以及在训练过程中从未出现过的情况,如复合地形和可变形斜坡,显示出在开放世界中的卓越泛化能力。在模拟器中,我们的方法在66.67%的任务中,具有更好的表现,结果展示在表2中。
表1:我们的方法与其他方法在真实世界中的对比
表2:我们的方法与其他方法在模拟器中的对比
[消融实验]
通过观察我们方法的不同变体的训练曲线,如图3所示,我们发现:1)速度估计与表征稳定的隐变量都对性能提升有帮助;2)基于对比学习的方法相比于回归的方法能够提供更大的提升;3)相比于直接估计环境信息的方法,我们的方法能够在真实世界中最大程度继承模拟器中的性能。如表3所示,在真实世界中的测试再次证明了我们方法的优越性。
图3:不同方法的训练曲线
表3:真实世界中的消融实验
结 论
我们的工作呈现了一个有潜力的控制框架,并揭示了基于学习的运动控制与内部模型控制之间的联系。此外,我们的实验结果显示,关节编码器和惯性测量单元(IMU)提供了足够的信息。我们还证明,与回归相比,对比学习在抗噪声鲁棒性和高样本效率方面提供了更好的表示。到目前为止,我们的方法是第一个在运动任务中充分利用批量级信息的系统,它利用了Isaac Gym的大规模并行模拟。然而,缺乏外部感知,例如视觉信息,使得足式机器人只能在相对简单的环境中运动。未来,我们将结合外部感知,以克服更具挑战性的环境和更高级别的任务。
2024-01-09
2024-01-08